Python KMeans 聚类单词

java - 在 MapReduce 中组合聚类算法

对于我的大学项目，我最初想在MapReduce上实现一个组合聚类算法。我已经完成了KMeans。现在我的问题是:能否将任何其他聚类算法与MapReduce上的Kmeans相结合？如果是，是什么算法，过程是怎样的？如果无法合并，如何对现有KMeans进行增强？最佳答案您可以应用一种方法来智能地选择初始质心，而不是随机选择它们。有论文介绍了改进的K-Means算法。您可以引用其中的一个或多个并创建您自己的改进K-Means算法。关于java-在MapReduce中组合聚类算法，我们在S

MapReduce java section 上实 algorithm hadoop k-means

java - Hadoop 的单词百分比程序

我正在开发著名的WordCount程序的一个稍微改进的版本，它应该输出单词在书中所占的百分比。例如:...war0.00002332423%peace0.0034234324%...基本上，我需要计算所有单词，计算每个单词的出现次数，将这组值除以总计数。所以至少应该有两个工作:工作1获取input目录并生成两个输出目录:output1和output2Mapper:将(word,1)对写入output1，将("total_count",1)对写入output2Reducer:在output1中对具有相同key的pair求和得到(word,n)，计算总计数使得("total_count",

单词 Hadoop code output section java mapreduce word-count

hadoop - 如何将 Mahout KMeans 聚类集成到应用程序中？

我正在尝试将MahoutKMeans用于一个简单的应用程序。我根据数据库内容手动创建了一系列向量。我只是想将这些向量提供给Mahout(0.9)，例如KMeansClusterer并使用输出。我阅读了MahoutinAction(版本0.5中的示例)和许多在线论坛以获取背景知识。但是，如果没有通过Hadoop使用文件名和文件路径，我再也看不到使用MahoutKMeans(或相关集群)的方法了。文档非常简略，但是Mahout是否可以再以这种方式使用？当前是否有任何使用MahoutKMeans的示例(不是来自命令行)。privateListkMeans(Listallvectors,dou

hadoop Mahout new section k-means

java - 如何使用 hadoop mapreduce 编程计算文件中特定单词的出现次数？

我正在尝试使用java中的hadoopmapreduce编程计算文件中特定单词的出现次数。文件和单词都应该是用户输入。所以我试图将特定单词作为第三个参数与i/p和o/p路径一起传递(In,Out,Word)。但我无法找到将单词传递给map功能的方法。我尝试了以下方法，但没有用:-在映射器类中创建了一个静态字符串变量，并将我的第三个参数(即要搜索的词)的值分配给它。然后尝试在map函数中使用这个静态变量。但在map函数内部，静态变量值为Null。我无法在map函数中获取第三个参数的值。是否可以通过JobConf对象设置值？请帮忙。我在下面粘贴了我的代码。publicclassMyWord

单词 mapreduce LongWritable wordToSearch class java hadoop

hadoop word count 并获取最大出现的单词

我是hadoop的新手。我已经完成了字数统计，现在我想做一个修改。我想获取文本文件中出现次数最多的单词。如果，正常的字数统计程序给出输出:a1b4c2我想编写只给我输出的程序b4这里是我的reducer函数::publicstaticclassReduceextendsReducer{intmax_sum=0;Textmax_occured_key;publicvoidreduce(Textkey,Iterablevalues,Contextcontext)throwsIOException,InterruptedException{intsum=0;for(IntWritableva

单词 hadoop code max_occured_key IntWritable max word-count

Hadoop 在另一个文件中搜索一个文件中的单词

我想构建一个hadoop应用程序，它可以从一个文件中读取单词并在另一个文件中进行搜索。如果这个词存在——它必须写入一个输出文件如果单词不存在-它必须写入另一个输出文件我在hadoop中尝试了几个例子。我有两个问题两个文件各约200MB。检查另一个文件中的每个单词可能会导致内存不足。有没有其他方法可以做到这一点？如何将数据写入不同的文件，因为hadoop的reduce阶段的输出只写入一个文件。是否可以为reducephase设置一个过滤器以将数据写入不同的输出文件？谢谢。最佳答案我会怎么做:按单词拆分'map'中的值，发出(，)(

中搜单词 missingsource section word hadoop mapreduce

hadoop - 如何计算字母的数量，而不是使用 Pig 的单词

各位，我找到了很多关于计数词的例子，但找不到计数字母。我只是想把单词拆分成字母，然后数一数，但是我的代码是错误的。有人可以帮我弄这个吗？非常感谢。这是我的代码:A=load'./in/*.txt';B=FOREACHAGENERATEFLATTEN(TOKENIZE(LOWER((chararray)$0)))aswords;C=FOREACHBGENERATEFLATTEN(REGEX_EXTRACT_ALL(words,'([a-zA-Z])'))asletter;D=groupCbyletter;E=FOREACHDGENERATECOUNT(C),group;DUMPE;

单词 hadoop section 39 GENERATE mapreduce apache-pig

python - Python、Hadoop 或其他语言中的图形聚类

有谁知道python中的一个包可以在一个非常大的无向图中(100,000个节点和很多边)中选择多个集群，以便最小化集群内的距离平方和或类似的东西？我现在正在查看MCL:http://micans.org/mcl/ 最佳答案看起来要么使用mahout进行光谱聚类，要么这个MCL算法都可以工作。关于python-Python、Hadoop或其他语言中的图形聚类，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.

言中 python section stackoverflow noreferrer graph hadoop cluster-analysis graph-theory

hadoop - 使用 Pig 计算每行中的单词出现次数

我有一组包含许多不同字段的推文raw_tweets=LOAD'input.tsv'USINGPigStorage('\t')AS(tweet_id,text,in_reply_to_status_id,favorite_count,source,coordinates,entities,in_reply_to_screen_name,in_reply_to_user_id,retweet_count,is_retweet,retweet_of_id,user_id_id,lang,created_at,event_id_id,is_news);我想找出每个日期最常用的词。我设法按日期对

单词 hadoop code words pre apache-pig

hadoop - 无法在 Mahout 中实例化类型 Cluster、KMean 聚类示例

您好，我试图在Mahout中运行KmeanClusteringExample，但遇到了示例代码中的错误。我在下面的代码片段中遇到错误集群cluster=newCluster(vec,i,newEuclideanDistanceMeasure());报错CannotinstantiatetheTypeCluster(这是一个接口(interface)，我的理解)。我想在我的样本数据集上运行kmeans，任何人都可以指导我吗？我在我的EClipseIDE中包含了以下Jarmahout-math-0.7-cdh4.3.0.jarhadoop-common-2.0.0-cdh4.2.1.jar

Cluster hadoop import new apache compiler-errors mahout k-means

158 159 160161162 163 164